02. 什么是机器学习工作流?

在这里我们使用一个 狗狗分类这个项目 来模拟讲解这个流程。
我们分三个部分来看这个部分,
探索及处理数据
- 获取数据:在项目中,数据是我们已经准备好了,包括标注。
- 清洗和探索数据:狗狗分类项目中,我们是使用 CNN 来进行特征的筛选,但是如何设置CNN的超参数,我们需要经过一定的清洗(清除错误的标签和异常值)、可视化和探索;
- 准备及变形:为了让图像能够输入神经网络处理,我们可能需要裁剪、重采样、甚至图像增强(就是翻转或者旋转),并进行标准化、拆分数据集变成训练集、测试集和验证集;
建模
- 训练模型:设置不同的初始参数及动量,进行模型参数的收敛及训练;
- 验证及评估模型:通过验证数据来进行交叉验证,获得具有鲁棒性的参数,并使用测试数据进行模型评估;
部署
- 生产部署模型:部署模型,使其可以通过网络访问;
- 更新模型:通过新的数据,训练并更新模型参数;